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Verfahren zur Zeichentrennung bei Texterkennungsauf gaben 

Die Erfindung betrifft ein Verfahren zur Zeichentrennung 
bei Texterkennungsauf gaben . 

• • • 

Bei der automatischen Erkennung von Texten, d.h. bei der 
Umwandlung der grafischen Information eines Dokumentes in 
Textzeichen, die mittels elektronischen Textverarbeitungs- 
programmen weiterverarbeitet werden konnen, ist eine 
wesentliche Voraussetzung fur einen erf olgreichen 
Erkennungsvorgang die genaue Bestimmung der Lage und der 
Groiie der einzelnen Zeichen. Diese Bestimmung ist bei 
Vorlagen mit schlechtem Schriftbild oder Schriftarten mit 
sehr engem Zeichenabstand unter anderem dadurch 
problematisch, dafi die Zeichen mit einander verbunden sind 
"zusammenwachsen" und damit durch herkommliche Methoden wie 
die einfache Konturverf olgung nicht mehr getrennt werden 
konnen . 

Der Erfindung *liegt daher die Aufgabe zugrunde, ein 
verbessertes Verfahren zur Trennung miteinander verbundener 
Zeichen anzugeben . 

Dies geschieht erf indungsgemali mit einem Verfahren der 
eingangs genannten Art, bei deru zu den untersuchten 
Extraktionsobj ekten mittels Weilidellenanalyse und 
Winkelanalyse mogliche Schnittpunkte ermittelt werden, bei 
dem aus den Schnittpunkten und entsprechenden Gegenpunkten 
plausible Trennlinien ermittelt werden und bei dem die 
solcherart getrennten Objekte Klassif ikationsverf ahren 
unterzogen werden und auf der Grundlage der Ergebnisse die 
endgultige Trennung erfolgt. 
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Vorteilhaft ist eine Ausgestaltung des Verfahrens in der 
Weise, daft bei mehr als drei moglichen Schnittpunkten, ein 
erster Schnitt durch den vom linken Zeichenanf ang gezahlten 
vierten Schnittpunkt erfolgt. Dies deswegen, weil kein 
iibliches Textzeichen der lateinischen Schrift mehr als drei 
Weifidellen aufweist. 

Gunstig ist es ferner, wenn nach einem ersten Schnitt' mit 
einem ersten moglichen Schnittpunkt und einem 
darauf folgenden erfolglosen Klassif ikationsversuch als 
Basis fur einen weiteren Trennversuch der zum ersten 
moglichen Schnittpunkt nachstliegende linke 
Nachbarschnittpunkt vorgesehen wird. 

Die Erfindung wird anhand von Figuren naher erlautert . 
Es zeigen beispielhaf t : 

Fig.l eine Darstellung zur Weifidellenanalyse eines Bildes, 
Fig. 2 eine Darstellung zur eigentlichen Zeichentrennung . 

Der Ablauf des erf indungsgemaflen Verfahrens ist wie folgt: 

Das Verfahren wird im Erkennungsvorgang nach der Bestimmung 
der Lage der Zeile gestartet. Bei der Ermittlung des 
Umfanges eines Zeichens oder mehrerer verbundener Zeichen 
durch Konturverfolgung wird bereits eine Weifidellenanalyse 
durchgef ilhrt . Nach dem Vorliegen der vollstandigen Kontur 
erfolgt eine Winkelanalyse . 

Mittels Weifldellenanalyse und Winkelanalyse werden mogliche 
Schnittpunkte ermittelt, die in Verbindung mit Gegenpunkten 
mogliche Trennlinien liefern. 

Die Schnittpunkte werden hinsichtlich ihrer Plausibilitat 
untersucht. Dabei wird ermittelt, welche Zeichenf olgen die 
vorliegende WeiBdellenkombination beinhalten. So sind 
beispielsweise in der Buchstabenf olge WV folgende 
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Weifldellen enthalten OBEN-UNTEN-OBEN-UNTEN-OBEN . Wobei OBEN 
(UNTEN) eine nach oben (unten) offene Weifidelle 
kennzeichnet . Aus der Kenntnis der Buchstaben heraus wird 
nun die erste Trennung durch den Schnittpunkt der vierten 
Weifidelle erfolgen . 

Darauf wird ermittelt, inwieweit die Trennung des Objekts 
entlang der auf plausiblen Schni ttpunkten beruhenden 
Trennlinien zu plausiblen Klassif ikationsergebnissen fiihrt. 
Mit anderen Worten, die getrennten Zeichen oder 
Zeichenteile werden einem Erkennungsvorgang z.B. mittels 
neuronalem Netz unterworfen und wenn dieser Vorgang zu 
einem zuf riedenstellenden Ergebnis - einem mit hoher 
Sicherheit erkannten Zeichen - fiihrt, dann wird die 
Trennung akzeptiert. Andernfalls wird die Trennung entlang 
von anderen Trennlinien solange wiederholt, bis ein 
zuf riedenstellendes Ergebnis vorliegt - 

Neuronale Netze sind mathematische Modelle, welche dem 
Aufbau des menschlichen Gehirns nachempfunden sind. Sie 
bestehen aus Neuronen, das sind im wesentlichen 
Summierelemente mit gewichteten Eingangen und einem 
nichtlinearen Verstarkeranteil, die zu einem parallelen 
Netzwerk mit typisch zwei Ebenen zusarnrnengef afit werden. 
Eine ausfiihrliche Beschreibung des beim Ausf iihrungsbeispiel 
eingesetzten "Feedforward Neural Networks" findet sich 
beispielsweise in "Layered Neural Nets for Pattern 
Recognition", B. Widrow, R. G. Winter, R. A. Baxter; IEEE 
Transactions on Acoustics, Speech and Signal Processing, 
Vol. 36. No. 1. July 88. 

Die Mustererkennung mittels neuronalem Netz erfolgt nach 
dem in "A rotation, scaling, and translation invariant 
pattern classification system", C. Yiiceer, K Oflazer; 
Pattern Recognition, Vol. 26, No5, pp687-710, 1993. 
beschriebenen Verfahren. 
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Die Weifidellenanalyse wird anhand der Figur 1 naher 
beschrieben. Die Figur zeigt die beiden miteinander 
verbundenen Buchstaben r und f die eine Weifidelle W 
aufweisen. Unter Weifidelle W wird dabei ein von drei Seiten 
begrenzter weifter Zwischenraum verstanden, der eine gewisse 
Tiefe aufweist und dessen offene Seite nach oben Oder unten 
gerichtet ist. Ermittelt wird diese Weifidelle W bei d,er 
Verfolgung der Kontur des ( zusammengewachsenen) Zeichens 
wenn die Konturlinie C zwei vorgegebene Schwellwerte SW in 
der richtigen Reihenfolge in beiden Richtungen 
iiberschreitet. Liegt wie in dem Beispiel eine nach unten 
offene Weifidelle W vor, dann wird der hochste Punkt der 
Konturlinie C als moglicher Schnittpunkt S definiert, bei 
einer nach oben offenen Weifidelle ist dies der tiefste 
Punkt. 

Der Ablauf der daraufhin erfolgenden Winkelanalyse ist wie 
folgt: 

Aus jeweils drei.Punkten der Konturlinie C[i] werden zwei 
Vektoren ermittelt, fur die gilt: 
A = C[i]C[i-5] und B = c[i]C[i + 5] 

Der Winkel zwischen den beiden Vektoren wird berechnet . Ist 
dieser linkslaufig, mit einem Betrag kleiner als 80° und 
einer entweder nach oben oder nach unten weisenden Spitze 
(C[i]), dann wird der Winkel in eine Liste eingetragen. 

1st diese Bedingung fur mehrere nebeneinander liegende 
Vektorpaare erfiillt, dann wird nur der Winkel mit dem 
geringsten Betrag weiterverf olgt . 

Die in der Liste eingetragenen Winkel werden nun daraufhin 
untersucht, ob auf der gegeniiberliegenden Seite der 



- 5 - 



Konturlinie ein Winkel mit entgegengeset zter Orientierung 
der Spitze vorhanden ist. 1st dies der Fall, dann wird das 
daraufhin gebildete Winkelpaar als Position eines moglichen 
Schnittpunktes gespeichert. 

Im Folgenden der Ablauf bei der Bestiirimung des Winkels 
zwischen zwei Vektoren, die durch 3 Punkte aus der 
Konturlinie (Ci :xl/yl, C 6 :x2/y2, C n :mx/my) definiert sj.nd. 
Daraus werden die x und y Komponenten der beiden Vektoren 
ermittelt . 

Ax = x\-mx ; Ay = y\-my . Bx = x2-mx . By = y2-my ; 

Der Winkel zwischen den Vektoren A und B wird wie folgt 
berechnet: Zuerst wird der Winkel von A zur x-Achse und 
dann der Winkel B zur x-Achse ermittelt. 



Winkel = 360-winkelB+winkelA (ist Winkel grofier 360°, dann 
wird der Winkel um 360° korrigiert) 

Die Bestimmung der Winkelspitzenrichtung beruht auf der 
Oberlegung, daft bei einer nach unten gerichteten Spitze die 
Y-Koordinaten der Punkte Ci und C 6 kleiner als die Y- 
Koordinate von Cu sind. 

Bei einer nach oben gerichteten Spitze mussen hingegen die 
Y-Koordinaten der Punkte Ci und C 6 groiier als die Y- 
Koordinate von Cu sein. 




Ax 



WinkeHinGrad) = 



Winkel(mRad)*\%0 
Pi 
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Die Eigenheiten gedruckter Texte und der EinfluB der 
begrenzten Bildauf losung bringen es mit sich, daB im 
Bereich eines Knicks der Kontur eines Zeichens die in der 
beschriebenen Weise ermittelten Winkel zwischen 2 Vektoren 
abhangig vom Betrachtungsraum zuerst zunehmend kleiner 
werden und danach wieder kontinuierlich zunehmen. Fur die 
weitere Auswertung wird daher nur der jeweils minimale 
Winkel eines derartigen Bereiches verwendet. 

Zur Festlegung einer moglichen Trennlinie mufi nun zu jedem 
moglichen Schnittpunkt C(Nr) ein entsprechender Gegenpunkt |^ 
auf dem gegenuberliegenden Zweig der Konturlinie 
C (i) ;i= (0/ . / contourNr) ermittelt werden. 

Dazu wird eine Gerade durch zwei auf der Konturlinie dem 
moglichen Schnittpunkt C(Nr) benachbarte Punkte C(Nr-l) und 
C(Nr+l) gelegt, und zu dieser Geraden die Normale 
ermittelt. Die zu dem Schnittpunkt dieser Normalen mit dem 
gegenuberliegenden Zweig der Konturlinie benachbarten 
Punkte werden hinsichtlich ihres Abstandswertes zum 
moglichen Schnittpunkt und der Normalen untersucht und der 
Konturpunkt mit dem minimalen Abstandswert als Gegenpunkt 
C(g)und damit als zweiter Punkt der moglichen Trennlinie 
definiert. 

Die mathematische Definition dieses Vorganges lautet: 

wc = C(Nr + \)x - C(Nr - l)x 
,ty = C(Nr + \)y - C(Nr - \)y 



Abstand 



= -l(C{Nr)x - C(/)x) 2 + (C(Nr)y - CU)y) 2 



= abs 



Abstand zu g2 



n x * (C(i)x -C(Nr)x) + ny* (C{i)y - C(Nr)y) 
•\{nx 2 +ny 2 ) 



Abstandswert = Abstand + Abstand zu g2; 
C(g) =C(i)| Abstandswert (C (g) , C(Nr))=min 

Die eigentliche Trennung wird anhand der Fig. 2 erlautert: 
Basis der Trennung ist die Konturlinie der extrahierten 
Zeichen. In einem 1. Schritt wird ein Trennlinienpuf £er mit 
0 initialisiert, dies entspricht einer senkrechten Linie am 
linken Rand, danach wird der am weitesten rechts liegende 
Punkt der Konturlinie 1 zwischen 0 und dem der Trennung 
zugrundeliegenden Schnittpunkt (das X-Wert-Maximum) 
ermittelt. Ebenso werden der am weitesten rechts liegende 
Punkt des Zweiges (das x-Wert Maximum) der Konturlinie vom 
Gegenpunkt bis zum Ende der Kontur 2 und der Trennlinie 3 
ermittelt . 

Die ges amine 1 ten maximalen x-Werte stellen also den 
aufiersten rechten Rand des zur Klassif izierung 
herangezogenen Zeichens dar. 



Patentansprtiche 



1) Verfahren zur Zeichentrennung bei Texterkennungs- 
aufgaben, dadurch gekennzeichnet, dali zu den untersuchten 
Extraktionsobjekten mittels Weifidellenanalyse und 
Winkelanalyse mogliche Schnittpunkte ermittelt werden, dafi 
aus den Schnittpunkten und entsprechenden Gegenpunkten 
plausible Trennlinien ermittelt werden und dafi die 
solcherart getrennten Objekte Klassif ikationsverf ahren 
unterzogen werden und auf der Grundlage der Ergebnisse die 
endgUltige Trennung erfolgt. 

2) Verfahren nach Anspruch 1, dadurch gekennzeichnet, dafi 
bei mehr als drei moglichen Schnittpunkten, ein erster 
Schnitt durch den vom linken Zeichenanf ang gezahlten 
vierten Schnittpunkt erfolgt. 

3) Verfahren nach Anspruch 1 Oder 2, dadurch 
gekennzeichnet, dafi nach einem ersten Schnitt mit einem 
ersten moglichen Schnittpunkt und einem darauf f olgenden 
erfolglosen Klassif ikationsversuch als Basis fur einen 
weiteren Trennversuch der zum ersten moglichen Schnittpunkt 
nachstliegende linke Nachbarschnittpunkt vorgesehen wird. 



••••• • • 
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Zusammen fas sung : 

Es wird ein Verfahren zur Zeichentrennung bei 
Texterkennungsauf gaben angegeben, bei dem zu den 
untersuchten Extraktionsobj ekten mittels Weifldellenanalyse 
und Winkelanalyse mogliche Schni ttpunkte ermittelt werden, 
dafl aus den Schnittpunkten und entsprechenden Gegenpunkten 
plausible Trennlinien ermittelt werden und dafi die 
solcherart getrennten Objekte Klassi f ikationsverf ahren 
unterzogen werden und auf der Grundlage der Ergebnisse die 
endgliltige Trennung erfolgt. 
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